25.5 제약 조건이 있는 강화학습 (Constrained MDPs & Safe RL) 25.5 제약 조건이 있는 강화학습 (Constrained MDPs & Safe RL) 25.5.1 CMDP(Constrained Markov Decision Process)의 정식화 25.5.2 라그랑주 이완(Lagrangian Relaxation)과 원초-쌍대(Primal-Dual) 최적화 25.5.3 CPO(Constrained Policy Optimization) 및 신뢰 영역 방법 25.5.4 리워드 쉐이핑(Reward Shaping)의 위험성과 대안